2024 禁制 AI 爬取內容懶人包，推薦清單整理

禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

OpenAI旗下AI對話式機器人ChatGPT今年爆紅之後，有許多人在探討如何阻擋AI機器人利用自己的內容來進行AI語言模型訓練，這部分爭議非常大，其實在OpenAI的官方文件中就有說明ChatGPT的網路爬蟲機器人名為GPTBot，...

2023年8月9日 — 網站所有者可以根據需要允許或限制GPTBot 爬取網站資料，讓他們有權決定是否將他們的內容用於AI 的訓練。此外，透過GPTBot 的推出，OpenAI 也在努力優化 ...

2023年8月8日 — AI模型的升级依靠海量的公开数据，而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。 8月8日，OpenAI推出了一款 ...

2023年8月25日 — 紐時公司發言人說，該網站服務約定條款最近更新，「更清楚表明禁止抓取我們的內容，用於AI訓練和開發」。 ChatGPT刮起生成式人工智慧機器人旋風後，全球 ...

2023年9月8日 — 新浪科技訊北京時間9月8日晚間消息，據報導，X公司（推特）日前更新了服務條款，在未經許可的前提下，任何第三方都不得在X平台上抓取數據來培訓人工 ...

2023年8月8日 — 然而，隨著AI 訓練數據的取得方式日益受到關注，一些平台如Reddit 和Twitter 已經採取措施，限制AI 公司無償使用其用戶的內容。同時，部分作者和創作 ...

2023年12月22日 — 媒體一直難以防止生成式AI 工具的爬蟲繞過他們的付費牆、並爬取他們的內容來訓練他們的語言模型。盡管內容生產者可以透過robots.txt 的註記阻止OpenAI 的 ...

2023年10月7日 — BBC 方面在最新公佈的網誌中表示，面對生成式AI 的科技創新熱潮，他們也必須與時並進。其中對於OpenAI 等科技企業的內容抓取，將會採取方法禁止，這個 ...

2023年10月1日 — 上篇帖子提到，AI公司抓取网站内容用于其AI训练，站长本身并不一定愿意。过去几个月，主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。网站有权这样做是无需 ...

2023年8月22日 — 早在8月初，《紐時》就先發制人，更新其服務條款，禁止其內容，包括文本、照片、圖像、音頻／影片、外觀和感覺、後設資料或合集，被用於開發「任何軟體 ...